當資料隨時間變動,可能導致原有的模型無法得到預期結果。資料漂移、概念漂移和資料庫漂移是資料變動的三種形式,分別影響模型的輸入特徵分布、輸出標籤和資料結構。為了應對這些變動,可以採用「橋接」策略,將舊資料調整為新格式,確保模型在過渡期間繼續運行並兼容新資料。
在學習機器學習的初期,我曾學到這樣的概念:「可以將機器學習模型視為一個一對一的函數,測試樣本是輸入 x,經過 f(x) 這個函數後,會得到一個固定的輸出 y。」也就是說,在模型沒有吃到新的訓練資料的狀況下,整體流程應該要是靜態的,相同的輸入會得到相同的結果(類似的概念請參考 [Day 7] 建構 ML 系統的挑戰 — 再現性)。然而,資料是會發生變動的,如果函數相同,輸入改變,這個函數可能就無法得出我們需要的結果。
資料漂移指的就是資料分布隨時間改變的現象,例如類別分布與過去不同,導致模型輸出的結果無法符合當前的需求。
嘗試將訓練資料從舊有的、原始的資料格式調整成一個更符合現實需求的新格式。由於新資料的累積需要時間,我們不可能在這段期間完全停滯模型的調整,因此可以採取「橋接 (bridge)」的策略:調整舊資料的格式、單位或計算方式,來過渡模型更新期。這樣不僅能夠確保模型在過渡期間繼續運行,也能讓新的模型順利兼容並利用舊資料,具體的實施方法和問題將在明天進一步說明。